Цели :

Рассмотреть базу генов рака и выполнить следующие задания:

Задание 1:
  1. Найти выбранный ген в базе данных IntOGen. Типы рака, в которых он мутировал? Определить их типы – точечные или структурные (вставки, делиции, транслокации)? Включить скриншот с графическим поиском в отчет.
  2. Произвести поиск выбранного гена на портале ICGC: В каких типах рака выбранный ген мутирует?
Задание 2:
  1. Скачать с ICGC индивидуальный геном с мутациями
  2. В Data Repository выбрать SSM и рассмотреть координаты одноточечных мутаций для выбранного образца, проверить наличие мутаций в выбранном гене, приложить скриншот.
  3. Рассмотреть 2 пункт еще для 4 генов

Обработка:

Загрузим используемые библиотеки

knitr::opts_chunk$set(echo = TRUE)

library(data.table)
library(DT)

Скачиваем список генов с NCG и читаем его

data <- as.data.frame(fread("NCG6_cancergenes.tsv"))
DT::datatable(data)


Мы выбрали ген PIK3CA, и нашли его в IntOGen

У данного гена есть мутации связанные со многими типами рака:

IntOGen_methods <- as.data.frame(fread("IntOGen-Methods-PIK3CA.tsv"))
DT::datatable(IntOGen_methods)


Большая часть мутаций являются точечными (97% всех мутаций данного гена приходятся на missense-мутации, которые являются точечными), но также встречаются и структурные

IntOGen_mutations <- as.data.frame(fread("IntOGen-Distribution-PIK3CA.tsv"))
DT::datatable(IntOGen_mutations)


Далее откроем раздел мутаций рассматриваемого гена в ICGC, и рассмотрим таблицу исследований различных типов рака, имеющие мутации в данном гене:

icgc_table <- as.data.frame(fread("ENSG00000121879_distribution_2021_05_08_01_01_35.tsv"))
DT::datatable(icgc_table)


Рассмотрим донора DO41337, его мы выбрали рассмотрев одно из исследований (UCEC-US), в котором встречались мутации PIK3CA

DO41337 <- as.data.frame(fread("DO41337.tsv"))
DT::datatable(DO41337)



У данного донора имеется 5 мутаций в рассматриваемом гене (ENSG00000121879)

DO41337Lines = readLines("DO41337.tsv")
sum(grepl(pattern = "ENSG00000121879", x = DO41337Lines))
## [1] 5

Исследование UCEC-US рассматривало рак тела матки(endometrial cancer), а следовательно часть доноров данной выборки имеет мутации связанные с повышенным риском возникновения данного заболевания. Тогда мы можем рассмотреть еще 4 гена из базы генов рака, чьи мутации связаны с данным видом рака (endometrial_cancer в поле cancer_type), например:

ALPK2, у данного донора в этом гене можно наблюдать 7 мутаций,

sum(grepl(pattern = "ENSG00000198796", x = DO41337Lines))
## [1] 7

BCOR, наблюдаются 17 мутаций,

sum(grepl(pattern = "ENSG00000183337", x = DO41337Lines))
## [1] 17

CCND1, наблюдаются 4 мутации,

sum(grepl(pattern = "ENSG00000110092", x = DO41337Lines))
## [1] 4

ERBB2, наблюдаются 11 мутаций

sum(grepl(pattern = "ENSG00000141736", x = DO41337Lines))
## [1] 11